Windows yazılım geliştiriciler için PDF Extractor SDK'sı: PDF'den Metin'e, PDF'den XML'e, PDF'den Görüntüler, PDF bilgilerini oku, PDF'yi CSV'den Excel'e.
Bytescout PDF Extractor SDK, PDF'ye metin, PDF'den XML'e, PDF'ye PDF'ye dönüştürmeyi, PDF'den görüntü almayı, herhangi bir ek yazılıma ihtiyaç duymadan .NET ve ActiveX arayüzlerinde PDF dosyaları hakkında bilgi çıkarmayı sağlar.
Yararları:
PDF'yi düz metne dönüştürür (ve bir gazeteyi PDF formatında dönüştürürseniz sütunları takip edebilir) - görünmez metin çıkarımı da dahil olmak üzere;
verilen dikdörtgenden hücreleri okuyarak tabloları PDF'ye Excel'e (CSV) dönüştürür;
tabloları PDF'ye XML dosyalarına dönüştürür;
PDF dosyası meta verilerini (başlık, yazar, açıklama) ayıklar ve dosya hakkında diğer bilgileri alır (şifreli veya şifrelenmemiş sayfa sayısı);
PDF belgesindeki gömülü görüntüleri ayıklar (ASP.NET, VB.NET, C #, VB6 ve VBScript'te);
PDF belgeleri birleştirmek ve bölmek için DocumentMerger ve DocumentSplitter arayüzleri ve sınıfları;
Adobe Reader veya başka bir PDF okuyucu yazılımının yüklenmesini gerektirmez;
.NET ve ActiveX arabirimleri sağlar;
% 100 yönetilen C # kodu ile yapılmıştır.
Bu sürümdeki yeni :
9.0.0.3079 Sürümü: Ayıklanan içeriğin font adı, yazı tipi boyutu ve renge göre filtrelenmesi eklendi.
OCR motorunu en son sürüme güncellendi. Dil dosyalarını 'tessdata' klasöründen güncelleyin.
Geliştirilmiş metin çıkarımı, tablo verilerinde gruplama, performans, XFA form çıkarma, TableDetector, sabit PDF ayrıştırma sorunları.
Yeni olan nedir 8.7.0.2980 sürümünde:
Ayıklanan içeriğin font adı, yazı tipi boyutu ve renge göre filtrelenmesi eklendi.
OCR motorunu en son sürüme güncellendi. Dil dosyalarını 'tessdata' klasöründen güncelleyin.
Geliştirilmiş metin çıkarımı, tablo verilerinde gruplama, performans, XFA form çıkarma, TableDetector, sabit PDF ayrıştırma sorunları.
Yeni olan nedir 8.6.0.2911 sürümünde:
Ayıklanan içeriğin font adı, yazı tipi boyutu ve renge göre filtrelenmesi eklendi.
OCR motorunu en son sürüme güncellendi. Dil dosyalarını 'tessdata' klasöründen güncelleyin.
Geliştirilmiş metin çıkarımı, tablo verilerinde gruplama, performans, XFA form çıkarma, TableDetector, sabit PDF ayrıştırma sorunları.
Sürüm 8.2.0.2699 sürümünde yeni :
Sürüm 8.2.0.2699 belirtilmemiş güncellemeler, geliştirmeler veya hata düzeltmeleri içerebilir.
8.0.0.2528 sürümünde yeni :
7.0.0.2474 sürümündeki yeni :
7.0.0.2474 sürümü:
- PDF belgelerini sessizce (kullanıcı iletişim kutuları olmadan) yazdırmaya olanak tanıyan yeni DocumentPrinter yardımcı programı ekledi
- yeni JSONExtractor sınıfı ekledi
- , oluşturulan dosyalar için çıktı klasörünü belirlemeye izin veren DocumentSplitter.Split () yöntemi için geçersiz kılma eklenmiştir
- DocumentSplitter'de sabit çoklu iş parçacıklı hata
- tableDetector, SetExtractionArea () yöntemiyle ayarlanan çıkarma alanına artık saygı duyuyor
- çıkarma sınıflarındaki yeni özellikler: ExtractionColumns - algılanan sütunların koordinatlarını içerir; CustomExtractionColumns - sütun algılamayı geçersiz kılmaya izin verir
- GetPageRect * yöntemleri sayfa dönüşünü dikkate almadı.
Önceki kurulumdan bazı dosyalara neden olan yükleyicide düzeltilen hata güncellemeleri engelliyordu - kayıt kontrolünü yeniden düzenledi. Artık kütüphane bir istisna atmayacak, ancak yanlış kayıt veya giriş yaptıysanız demo modunda çalışacaksınız RegistrationName ve RegistrationKey
- PDF Multitool: "PDF Belgesini Aç" düğmesine son belge listesi eklendi
- PDF Multitool: Seçim şimdi yeniden boyutlandırılabilir
- PDF Multitool: Eklenti JSON özelliği eklendi
- PDF Multitool: Geliştirilmiş Tablo Dedektörü Kullanıcı Arayüzü
- PDF Multitool: Büyük ölçüde iyileştirilmiş yazı tipi oluşturma kalitesi
- PDF Multitool: Geçerli sayfada algılanan sütunları görüntülemek için içerik menüsüne "Algılanan Ekstraksiyon Sütunu Göster" seçeneği eklendi. Sadece gösterilen mevcut sayfaya karşı herhangi bir ekstraksiyon çalıştırdıktan sonra görünür olur
- PDF Multitool: 32 bit Windows'ta sabit yazı tipi oluşturma sorunu
- diğer küçük iyileştirmeler ve hata düzeltmeleri
Sürüm 6.30.0.2421 :
Version 6.30.0.2421 sürümünde yeni: :
- TextComparer yardımcı programı sınıfı (yalnızca .NET 4.0 derlemelerinde kullanılabilir), iki PDF belgesindeki metnin karşılaştırılmasına ve rapor oluşturulmasına izin verir.
- ICC renk profillerinin iyileştirilmiş desteği.
- Gömülü fontların ele alınması.
- Geliştirilmiş EklentiExtractor.
- Sabit XMLExtractor.SaveXMLToStream () yöntemi.
- OCRCacheMode.WholePage seçeneğini kullanırken sabit ayıklanan metin çoğaltma.
- Diğer hata düzeltmeleri ve iyileştirmeler.
Sürüm 6.20.2354’de yeni: :
Sürüm 6.20.2354:
- PDF'ye Metin, CSV'ye PDF, PDF'ye XML işlevleri geliştirildi
- Yeni Video Ekleme, Ses Örneklerini Çıkar
- CSV ve XML çıkarıcıları, içinde boş sütun bulunan tabloların desteğini geliştirdi
- PDF'den video ve ses çıkarmak için yeni MultimediaExtractor
- yeni özellik PageDataCaching
- yeni "MemoryCareProcessingOfHugeFiles" örneği
- null istisnası var
- XLSExtractor: yazı tipi desteğini geliştirir
- SkipInvisibleText artık kırpılmış metni atlıyor (görünmüyor)
- metin çıktı oluşturma iyileştirildi
- XFDF Extractor: onay kutuları için destek eklendi
- Daha fazla alt biçimi desteklemek için resim çıkışı geliştirildi
- Unicode metin kullanımı iyileştirildi
Zaten bertaraf edilen sayfaları atmaya çalışırken
Sürüm 6.11.2149’da yeni: :
Sürüm 6.11.2149:
- Toplu İşleme Örnekleri, Reset () yönteminin kullanımını göstermek için güncellendi
Sayfa Çıkarımı için - C ++ kaynak kodu örneği eklendi
- DocumentMerger, 2 dosyayı birleştirmek için Merge2 (inputfile1, inputfile2, outputfile) yöntemini ekler
- XLS Extractor küçük hata düzeltmeleri
- PDF Multitool artık metin, resim, vektör katmanlarını etkinleştirmeyi / devre dışı bırakmayı, metin çıkarımı için gelişmiş ayarları eklemeyi sağlar.
- XML, CSV, Tablo ekstraksiyonu, sütunların içindeki emtriyeli hücreler için destek geliştirir
- .ExtractShadowLikeText özelliği iyileştirildi: gölge benzeri metin için daha iyi filtreleme
Sürüm 6.10.2136’da yeni:
:Sürüm 6.10.2136:
- XML'den PDF'ye, PDF'ye CSV'ye, Metin Metin işlevselliği iyileştirildi
- PDF'ye XLS komut satırı örneği eklendi (vbscript temel alınarak)
- HTML'den HTML'ye SDK, metinde otomatikleştirilmiş bağlantıları algılamayı etkinleştirmek / devre dışı bırakmak için yeni .DetectHyperLinks özelliğini (varsayılan olarak TRUE) ekler.
- PDF'yi aranabilir PDF dosyalarına dönüştürmek için yeni SearchablePDFMaker (PRO lisansları için kullanılabilir)
- çıkarıcıdaki yeni özellikler: ConsiderFontNames, ConsiderFontSizes, ConsiderFontColors, CFG dosyalarındakiVericalBorders
- üstbilgi sütunları algılama (AutoAlighHeaderToColumns = true olduğunda)
- .DetectLinesInsteadOfParagraphs, satırların paragraflar içinde nasıl birleştirildiğini denetlemek için yeni .LineGroupingMode ile değiştirilir
- ÖNEMLİ! PDF To XML, metin nesneleri için yanlış Y koordinatıyla uzun süre sorunu giderir (sol üstte sol alt köşeye işaret ediyordu)
- .TableXMinIntersectionRequiredInPercents ve .TableYMinIntersectionRequiredInPercents özellikleri eklendi
- C ++ kaynak kodu örneği eklendi
- XML Extractor, PreserveFormatting = true modunda eksik boş sütunları düzeltir
- bazı PDF dosyalarındaki renkler küçük düzeltmeler
- Birden çok OCR dili için destek eklendi
- PDF Multitool GUI: Panoya Kopyala butonunu TXT, CSV, XML ve tarama oluşturucu iletişim kutularına ekler
- XLSExtractor: Sayfa başına ayrı çalışma sayfalarının oluşturulmasını etkinleştirmek / devre dışı bırakmak için PageToWorksheet özelliğini ekler
- yeni .TextEncodingCodePage özelliği
- PDFViewerControl: Kullanıcının bağlam menüsüne özel öğeler eklemesine izin veren ValidateContextMenu ekler
- PDF Görüntüleyici kontrolü: ShowTextObjects, ShowImageObjects, ShowVectorObjects özelliklerini ekler
- XMLExtractor artık tanınan metin için "OCRConfidence" özelliğini ekliyor
- PDF / A denetleme işlevi (beta)
- denetimleri ve metin düzenini ve hizalamayı orijinal düzenine göre iyileştirme. Sorun, ayrıştırma sırasında Y koordinatlarının kontrollerdeki kaymasıyla meydana geldi: yanlıştı. Doğru yol, shif ...
- XML Extractor güncellendi: şimdi onay kutuları ve metin alanları için CONTROL etiketi üretiyor
- geçici dizini temp dizinine değiştirildi
- onay kutuları, radyo kutuları, düzenleme kutuları, açılan kutular daha iyi desteklenir
- artık kısmi güven arayanlara izin veriyor
5.80.1781 sürümünde yeni: :
5.80.1781 sürümü:
- XML'den PDF'ye, CSV'ye PDF, PDF'den Metin İşlevine güncellendi
- OCRMode şimdi 9 mod sunuyor
- .DetectLineInsteadOfParagraph artık çok daha iyi çalışıyor. Tablo hücrelerinde çok satırlı metni yakalamak için False olarak ayarlayın!
- PDF denetimleri desteği geliştirildi
- FDF ve XFDF veri çıkarma
Sürüm 5.10.1747’de yeni: :
Sürüm 5.10.1747:
- XML'den PDF'ye, CSV'ye PDF, Metin'den PDF'ye metin fonksiyonları iyileştirildi
- artık metin kontrollerinden metin çıkarımını destekliyor
- XML çıkarıcı artık etiketlere yazı tipi stili, boyut, ad, metin koordinatları ekliyor
OCR kullanımı için - ASP.NET örneği eklendi
- "tessdata" klasörünün yerini belirtmek için yeni özellik OCRLanguageDataFolder
- PDF dosyalarının daha iyi desteklenmesi
- , döndürülmüş metin desteği geliştirir
- güncellenmiş kaynak kodu örnekleri
- güncellenmiş belgeler
- küçük iyileştirmeler ve düzeltmeler
Yeni olan nedir? 5.00.1626 sürümünde:
Sürüm 5.00.1626:
- OCR (resimdeki metin) işlevi eklendi: artık gömülü resimlerden metin çıkarıp bozuk metinleri onarabilirsiniz
- sorun bazı sütunlarda CSV ve XML extractor ile son sütunlarda eksik
- hasar görmüş PDF dosyaları için iyileştirilmiş destek
- kelime eşleme modlarıyla çok satırlı arama metni araması artık destekleniyor
- artık metni tire ile ve farklı satırlarda arayabilir: yeni kaynak kodu örneğine bakın. Tire ile Metin Bul
- yeni özellik .RTLTextAutoDetectionRTL dillerini otomatik olarak algılamak için Etkin (varsayılan olarak yanlış)
- PDF Görüntüleyici GUI demosu iyileştirildi
- küçük iyileştirmeler ve düzeltmeler
Gereksinimler :
.NET Framework 2.0 veya üstü
Sınırlamalar :
Nag ekranı, çıktıda filigran
Yorum Bulunamadı